AI在线强化学习“边做边学”,斯坦福团队让7B小模型性能飙升 它由规划器、执行器、验证器、生成器四个专业智能体组成的团队通过共享内存进行协作,利用新方法Flow-GRPO,在系统内部直接对其规划器智能体进行实时优化。 模型 智能体 斯坦福 边学 agentflow 2025-10-24 12:11 2